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摘 要 : 针对 当前 大 数据 应 用 主要 以 通用 处 理 器 为 计算 核心 ， 且 系统 结构 单一 、 能 效 比 低 ， 无 法 充分 满足 大 数据 的 计 

算 需 求 。 基 于 拟态 计算 模型 ， 提 出 了 一 种 大 数据 高 效 人 ee 

数据 应 用 算法 的 特征 , 合理 划分 各 计算 子 任务 ; 其 次 ,构造 体系 结构 匹配 徐 阵 ,并 将 子 任务 分 配 到 合理 的 处 理 部 件 上 ; 

最 后 ， WO 实现 非 关键 任务 的 电压 控制 ， 并 优化 关键 任务 的 结构 布局 。 实 验 
结果 表明 ， 拟 态 计算 能 深度 融合 各 异 构 计 算 部 件 ， 建 立 具 有 灵活 、 可 拓展 的 体系 结构 ， 充 分 发 挥 系统 整体 执行 效率 ， 

降低 功 耗 ， 提 高 能 效 比 。 
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Design method of big data high-efficiency platform based on mimic computing 
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Abstract: In view of the current big data applications mainly use the general processor as the computing core, and the system 
structure is simple, energy efficiency ratio is low, can't fully meet the big data computing needs. In this paper, based on mimic 
computing model, a design method of big data high-efficiency platform is put forward. This method took computing grain as 
the basic research object, deeply analyzed the features of big data application algorithms, and reasonably divided the 
computational subtasks. Secondly, an architecture matching matrix was constructed and the subtasks were assigned to the right 
processing units. Finally, dynamic voltage/frequency scaling technology and data layout algorithm were used to control the 
voltage of non-critical tasks and optimize the structure layout of critical tasks. The experimental results show that the mimic 
computing can integrate the heterogeneous computing components in depth, establish a flexible and scalable architecture, give 
full play to the overall efficiency of the system, reduce the power consumption and improve the energy efficiency ratio. 
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配 资源 、 结 构 可 变 、 灵 活 计算 的 特点 。 拟 态 计算 通过 识别 应 用 
的 需求 、 应 用 的 变化 ， 同 时 感知 系统 中 可 以 利用 的 处 理 资源 ， 
近年 , 随 着 大 数据 技术 的 飞速 发 展 ,“ 数 据 为 王 ”的 时 代 已 。 ”依据 尽 可 能 高 效 的 原则 ， 构 建 出 适合 于 应 用 需求 的 处 理 结构 ， 
经 到 来 。 大 数据 中 蕴藏 的 宝贵 价值 ， 在 社交 、 金 融 、 医 疗 、 电 且 该 结构 随 着 应 用 的 变化 ， 如 : 计算 进展 阶段 、 处 理 负 蓓 等 
言 等 领域 引起 了 人 们 高 度 的 重视 。 但 是 ， 海 量 、 模 态 多 样 的 非 ” 的 变化 ， 而 进行 结构 的 主动 变更 ， 达 到 “应 用 决定 结构 ， 结 构 
结构 化 数据 ， 使 得 大 数据 环境 的 构建 颇 为 复杂 ， 这 要 求 在 计算 ”决定 效能 ”的 目的 。 拟 态 计算 能 充分 利用 程序 和 计算 部 件 的 异 
架构 和 大 规模 数据 处 理 机 制 上 实现 范式 转变 。 同 时 ， 大 数据 的 。 ” 构 性 ， 各 尽 潜 能 ， 合 理 分 治 ， 协 同 计算 一 个 应 用 任务 ， 兼 顾 性 
传输 、 存 储 和 分 析 处 理 都 将 消耗 大 量 的 能 源 ， 研 究 创新 的 节能 ” 能 和 灵活 性 。 本 文 基于 拟态 计算 的 思想 ， 提 出 了 一 种 大 数据 高 
计算 技术 ， 也 是 了 亚 待 解决 的 问题 目 。 效能 平台 设计 方法 ， 通 过 分 析 大 数据 应 用 的 算 粒 特征 ， 依 据 
拟态 计算 以 实现 高 效能 和 高 性 能 计算 为 目的 ， 具 有 按 需 分 高 效 的 原则 ， 合 理 利用 系统 中 的 处 理 资 源 ， 构 建 出 适合 当 
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前 大 数据 应 用 的 处 理 结构 ， 并 利用 动态 能 效 的 优化 ， 在 保证 计 
算 性 能 的 同时 降低 系统 功 耗 。 进 而 ， 为 创新 大 数据 计算 模拟 环 
境 ， 提 供 理论 基础 ， 降 低 大 数据 应 用 开发 和 利用 的 门槛 。 
1 ”相关 研究 

大 数据 是 一 个 新 生 事物 ， 目 前 在 国内 外 并 没有 出 现 较 为 成 
熟 的 大 数据 计算 平台 。 文献 [2] 通 过 分 析 大 数据 在 内 存 和 网 络 方 
面 的 结构 特征 ， 提 出 了 使 用 FPGA 构建 集群 ， 解 决 大 数据 所 面 
询 的 问题 。 文 献 [3] 通 过 调研 现 有 大 数据 处 理 平台 ,给 出 了 基于 
应 用 特性 的 硬件 系统 配置 方案 ， 相 比较 于 CPU 和 GPU， 在 大 
数据 处 理 中 FPGA 具有 并 行 性 、 流 水 线 和 高 性 能 的 特点 。 文 献 
[4 通过 分 析 现 有 大 数据 处 理 架构 所 存在 的 问题 , 给 出 了 混合 异 
构 平 台 在 加 速 比 、 扩 展 性 和 灵活 性 等 方面 的 优势 。 文 献 [5] 通 过 
构建 异 构 平 台 CPU+FPGA 在 数据 挖掘 和 深度 学 习 算 法 方面 ， 
取得 了 较 好 的 加 速 比 和 能 效 比 ， 并 降低 了 系统 功 耗 。 文 献 [6] 提 
出 了 面向 大 数据 应 用 的 异 构 多 核 可 重 构 平台 ， 通 过 可 重 构 器 件 
和 高 性 能 通用 处 理 器 总 线 互 连 ， 利 用 多 计算 资源 并 行 执行 的 调 
度 算法 , 使 所 有 计算 资源 (CPU+FPGA) 共 同 并 行 地 执行 任务 , 提 
高 了 大 数据 计算 效率 。 文 献 [7] 提 出 了 分 布 式 流体 系 结构 DSA 
(distributed stream architecture ) 及 其 编程 模型 与 资源 管理 ， 并 
在 CPU 和 GPU 异 构 系统 上 实现 了 原型 系统 ,提高 了 计算 性 能 。 
文献 [8] 分 析 了 大 数据 负载 的 体系 结构 特征 , 为 大 数据 平台 的 处 
里 器 设计 、 算 法 优化 具有 指导 意义 。 文 献 [9] 通 过 分 析 大 数据 
台所 需要 的 扩展 性 、 一 体 化 和 多 样 性 需求 ， 采 用 硬件 定制 化 的 
设计 和 混合 型 软件 架构 支持 多 种 大 数据 应 用 类 型 。 
上 ， 当 前 对 大 数据 体系 结构 的 研究 主要 集中 在 混合 异 构 
平台 。 但 是 上 述 方案 并 未 考虑 在 异 构 系 统 中 ， 大 数据 应 用 的 算 
法 特征 及 计算 任务 与 体系 结构 匹配 的 问题 。 另 外 ， 随 着 计算 系 
统 越 来 越 庞 大 ， 平 台 的 维护 和 运营 的 代价 也 越 来 越 高 ， 处 理 任 
务 的 能 效 比 成 为 了 用 户 关心 的 重要 因素 。 因 此 ， 大 数据 的 研究 
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PMC(Processing-Memory-Communication) 需 求 、 负 和 蓓 、 服 务 质量 


要 求 等 属性 ; 


M4 为 元 结构 的 资源 集合 ， 它 描述 资源 的 ID， 以 及 相应 的 


PMC 属性 ; 


O4 为 应 用 目标 结构 集合 ， 集 合 中 的 元 素 是 对 应 于 应 用 的 


高 效 结构 ， 它 是 元 结构 MA4 的 一 个 子 集 ; 
合 , 它 动态 的 反映 每 个 应 用 和 应 用 结构 的 


SE 为 系统 状态 集 


状态 ， 包 括 PMC 需求 、 应 用 负荷 、 功 耗 、 资 源 利用 率 等 ; 


EF 是 评价 函数 , 可 以 用 来 评价 每 次 重 构 出 来 的 应 用 结构 在 


QoS 方面 的 表现 ， 例 如 性 能 、 效 能 、 安 全 性 等 ; 


KB 为 知识 库 ， 库 


案 
内 容 。 知 识 库 具 有 自学 习 功能 ， 在 系统 运行 过 程 中 通过 自学 习 


不 断 进 行 更 新 ; 


等 
中 包含 推理 知识 、 推 理 规则 、 


DS 为 认 知 决策 函数 ,用 于 决策 应 用 的 目标 结构 。DS 以 EF 
趋向 于 最 高 为 原则 ， 综 舍利 用 4PP、MA4、EF、KB 等 要 素 ， 根 


据 SE 动态 的 决策 出 应 用 的 高 效能 结构 O4 。 


APP={ appi,app2,app3,.…} 
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到 1 拟态 计算 模型 


由 拟态 计算 的 定义 和 模型 可 知 ， 它 采用 了 “研究 和 建立 最 
适 的 计算 模型 、 使 用 和 构建 最 合适 的 处 理 部 件 、 设 计 和 匹配 
合适 的 体系 结构 、 追 求 和 逼近 最 理想 的 综合 效能 ”的 技术 虽 


Cs 


想 ， 可 以 根据 大 数据 应 | 
利用 基于 知识 库 的 决策 函数 ， 对 应 用 的 属性 、 服 务 质 量 、 负 蓓 


应 用 ， 急 需 一 个 创新 的 平台 来 支撑 全 生命 周期 内 跨 领域 、 异 构 
大 数据 的 管理 、 分 析 和 处 理 等 需求 四 。 
2 ”基于 拟态 计算 的 大 数据 高 效能 平台 设计 方法 
2.1 拟态 计算 模型 
包含 软件 和 硬件 变 体 的 多 维 重 构 函数 化 体系 结构 称 为 拟态 
架构 , 它 能 根据 动态 参数 选择 生成 多 种 功能 等 价 的 可 计算 实体 ， 
实现 拟态 变换 。 对 于 一 个 确定 的 可 计算 问题 ， 在 拟态 架构 中 可 
以 由 多 种 功能 等 价 、 计 算 效 能 不 同 的 硬件 变 体 和 软件 变 体 来 实 
现 ， 动 态 地 选择 与 使 用 这 些 变 体 ， 计 算 效 能 可 以 达到 最 优化 ， 
即 为 拟态 计算 0。 
拟态 计算 可 以 根据 大 数据 应 用 任务 的 特征 、QoS 的 要 求 、 
可 用 的 资源 ， 构 建 出 最 优 的 应 用 结构 ， 实 现 应 用 到 方案 的 最 优 
上 映射。 拟态 计算 模型 ， 如 图 1 所 示 ， 可 抽象 为 七 元 组 
(APP,M4,04,SE,EF,KB,DS) 其 中 : 
APP 为 应 用 的 集合 ， 它 包含 应 用 的 名 称 、 类 型 、 功 能 、 


Sy 


向 
变化 以 及 系统 构件 资源 进行 感知 ， 并 选取 合适 的 计算 部 件 ， 搭 
建 异 构 多 核 的 高 效能 大 数据 平台 系统 。 


] 的 特征 、QoS 的 要 求 、 系 统 的 状态 ， 


拟态 计算 模型 揭示 了 “刚性 不 变 的 体系 结构 支持 差异 巨大 
的 应 用 是 使 计算 效能 低下 的 根本 原因 ”其 本 质 是 以 拟态 变换 实 


现 高 效能 的 计算 。 对 于 不 同 需求 的 应 用 , 其 复杂 度 、 处 理 负荷 、 


效能 需求 、 处 理 时 机 、 


应 用 特点 等 因素 的 不 同 可 导致 对 应 的 高 


效 软件 、 硬 件 及 体系 结构 解 算 方 案 的 不 同 。 而 传统 大 数据 平台 


在 处 理 架构 上 基本 是 确定 的 ， 严 重 束缚 了 应 用 运行 时 效能 的 改 
善 。 拟 态 计 算 通过 对 应 用 和 资源 的 静态 或 动态 感知 ， 在 主动 认 


知 的 基础 上 ， 采 取 在 合理 的 预先 时 机 选取 或 重 构 出 合适 的 资源 


及 结构 ,动态 地 为 应 用 提供 最 合适 的 体系 结构 方案 和 执行 方案 ， 


力求 不 断 逼 近 最 优 效能 的 应 用 计算 需求 ， 从 而 达到 高 效能 的 目 


标 。 


此 外 ， 异 构 多 核 计算 能 够 在 保证 系统 通用 性 的 前 提 下 提供 


更 具 效 能 比 的 计算 平台 ,也 是 未 来 大 数据 系统 结构 发 展 的 方向 。 


鉴于 此 ， 拟 态 计算 模型 


4 立足 于 选择 多 种 灵活 的 计算 资源 和 存储 
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资源 接 入 方式 ， 


纳入 体系 结构 并 构成 一 个 有 机 整体 , 如 
FPGA 等 处 理 器 ， 并 利 
计算 组 合 需 求 ， 以 达到 


区 
来 合 


尽 可 能 多 地 将 各 类 计算 资源 和 存储 资源 方便 地 
已 有 成 熟 的 CPU、GPU、 
应 用 中 列 涵 的 不 同 


可 为 大 数据 应 用 平台 的 搭建 提供 强 有 力 
为 有 效 将 拟态 计算 模型 应 用 了 


构 计 算 平台 ， 需 要 首先 对 大 数据 
PMC 属性 和 执行 } 


F 大 数 ] 


面向 应 用 高 效能 计算 。 显 然 ， 拟 态 计 算 
的 支持 。 
时 领域 ， 构 建 高 效能 异 


应 用 进行 算 粒 特征 分 析 ， 
的 划分 各 运算 段 。 然 后 ， 从 系 
统 可 用 元 结构 资源 集合 中 ， 依 据 能 效 比 最 优 ， 建 立体 系 结构 匹 


配 和 矩阵 ， 


选取 各 运 自 
和 知识 ， 根 据 系统 负载 
优化 数据 布局 , 降低 能 


给 出 了 


2.2 大 数据 应 用 算 粒 的 特征 分 析 


2.2.1 算 粒 的 定义 


为 了 实现 大 数 拉 


段 适合 的 目标 结构 。 再 
的 变 化 ， 动 态 调节 系统 电压 和 频率 ， 


体 的 实现 流程 及 方法 。 


结合 已 有 的 经 验 


最 小 的 节点 单元 是 基本 块 BB (Basic Block) ,每 一 个 BB 都 可 以 
被 认为 是 一 个 小 的 DFG 图 。CDFG 图 较 DFG 图 包含 的 信息 更 
广 , 更 有 利于 从 大 数据 应 用 整体 , 分 析 程 序 的 执行 行为 。 CDFG 
图 的 定义 如 下 4; 


| 


CDFG = (V,E) 
V={BB,BB,,..., BB,} 
E={e,e,,...,e,} 
其 中 :V 是 基本 块 33 的 集合 , 且 每 一 个 B38 是 一 个 小 的 DFG 图 ， 
包含 基本 操作 和 数据 流向 ; E 是 边 的 集合 ， 每 一 条 边 e 表示 的 
是 B88 间 的 跳 转 过 程 。 如 图 2 所 示 , 展示 了 C/C++ 代码 与 CDFG 


算 需 要 对 多 种 算法 进行 算 粒 特 条 


的 粗 粒 度 、 层 次 


的 关系 和 共性 ， 为 系统 决策 提供 


计算 粒子 ， 简 称 算 粒 ， 是 对 
化 表示 方法 ， 是 传统 计算 指令 
度 , 对 计算 、 处 到 


的 对 应 。 算 粒 通过 


形成 数据 和 功能 


a 


是 完成 任务 算法 结构 的 一 种 
变 粒度 、 普 适 性 和 PMC 属性 。 
例如 ,排序 、FFT、 贡 


由 象 和 归 


算 尺 度 的 处 理 过 程 ， 如 棋 
然 ， 也 可 以 根据 实际 执行 计算 功能 部 但 


阵 乘 法 等 基 


灵活 、 可 拓展 和 高 效能 计算 ， 拟 态 计 
EF 分析， 研究 大 数据 算 粒 彼此 间 
依据 。 


某 一 计算 处 理 序 列 或 算法 结构 


到 算法 粒 化 结构 


过 程 进行 分 解 ， 
| 算 片 段 集合 ， 根 据 相似 性 和 功能 近 
似 性 , 进行 整合 。 算 粒 反映 了 大 数据 应 用 计算 特征 的 一 种 模式 ， 


纳 094。 它 


本 算法 流程 ， 
里 等 都 可 以 认为 是 某 种 算 粒 。 显 
的 单位 处 理 能 力 ， 将 上 


有 独立 性 、 可 


至 更 大 计 


述 算 粒 分 解 成 更 小 的 算 粒 , 如 32 位 进位 保留 加 法 器 、 移 位 乘法 
组 合 、 逻 辑 组 合 函 数 、 乘 后 加 等 。 


2.2.2 算 粒 计算 模型 

算 粒 计算 模型 可 表示 为 ，CG =(V,E,P,M,C,U) ， 其 中 
E={e le, = 人 (站 
Vis,V) EV,1<i,j<n}, 称 为 有 向 边 集 , 表示 算 粒 之 间 数 据 依赖 先 
后 关系 及 串 并 行 关系 ; P={pi,P,,…, DP,} ,代表 算 粒 的 串 行 计 
量 ; MM={m,75,…,1m,} ， 代 表 算 粒 所 需 内 存 容量 或 硬件 寄存 
代表 每 条 边 6 上 的 通信 和 量 ; 
算 部 件 ， 


了 = ， 


资源 ，C={ccc]， 


U = {4,W,,...,U,} 


u, e {CPU, GPU, CELL, DSP,...,1 <i<n}, 
对 于 算 粒 计算 模 


结合 大 数据 应 用 
CDFG(Control Data Flow Graph)i 
划分 、 并 行 和 依赖 关系 。CDFG 
者 述 程序 中 代码 的 执行 顺序 和 数 ] 


表示 算 粒 的 集 


| 


计 


其 计算 粒度 的 规模 受 解 算 目标 的 应 用 
驱动 ， 计 算 粒 度 越 大 ， 性 能 越 好 ， 计 算 量 粒度 越 小 ， 灵 活性 越 
高 ， 因 此 算 粒 兼顾 高 效 计算 和 灵活 性 。 
2.2.3 算 粒 的 分 析 方 法 


F 及 算 粒 模型 ， 
昔 述 程序 计算 


采 


图 类 似 于 有 向 


据 的 传递 过 程 031]。CDFG 图 中 


现 


控制 数据 流 
王 务 之 间 算 粒 
图 ， 可 以 准确 的 


ES 


图 之 间 的 关系 。 
(881O) 
B44 

Double getDistXY (const Tuple & X ,const Tuple &Y) 成 
{ PN 

double sum=0; 
for(inti=1;i<= dimNum;++i) 
{ 
sum+=(X[]-7[i])* (X07[); 
} 
return sgrt (sum); 


} 


图 2 C/C++ 代码 与 其 CDFG 图 

得 到 大 数据 应 用 的 CDFG 后 ， 可 以 通过 peeling 算法 0 对 
其 进行 划分 ,形成 子 图 .由 于 子 图 包含 操作 数 和 程序 执行 片段 ， 
具有 PMC 属性 ， 所 以 符合 算 粒 的 模型 描述 。 为 了 保证 子 图 有 
效 的 划分 ， 需 要 满足 以 下 约束 条 件 。 
a) 凸 性 。 吓 性 是 指 CDFG 子 图 和 DFG 子 图 必须 是 凸 子 图 ， 
即 子 图 中 不 存在 一 个 节点 连接 到 子 图 外 的 节点 上 ， 然 后 再 连接 
可 该 子 图 中 的 节点 。 这 是 为 了 保证 生成 算 粒 的 完整 性 和 结果 的 
唯一 性 。 

b) 连 通 性 。 连 通 性 是 指 CDFG 图 和 DFG 图 是 一 个 连通 图 。 
如 果子 图 不 是 连通 图 ， 就 无 法 确定 每 一 个 操作 的 执行 顺序 ， 也 
不 能 保证 数据 正确 的 传递 ， 将 造成 算 粒 划分 的 结果 不 唯一 。 
根据 不 同 大 数据 应 用 间 划 分 的 CDFG 子 图， 按照 代码 相 
似 性 和 功能 近似 性 ， 进 行 整合 ， 形 成 基础 算 粒 集 。 通 过 对 基础 
算 粒 集 的 动态 粗 粒 度 重 构 ， 可 以 灵活 地 拓展 形成 相应 的 程序 ， 
适应 多 种 大 数据 应 用 的 需求 。 
进一步 ， 通 过 对 算 粒 集 的 分 析 ， 找 到 执行 频率 高 的 BB 节 
点 和 频率 低 的 BB 节点 所 在 的 算 粒 。 并 将 执行 频率 高 的 BB 节 
点 所 在 的 算 粒 ， 确 定 为 高 阶 运算 段 ， 即 关键 路 径 ， 并 做 相应 的 
优化 处 理 ， 如 在 可 重 构 硬 件 上 ， 通 过 流水 线 的 方式 实现 。 同 
时 ， 还 可 为 专用 加 速 指令 等 设计 提供 有 效 的 指导 ， 提 高 处 理 器 
的 性 能 。 
2.3 ”大 数据 计算 任务 与 体系 结构 匹配 和 矩阵 

对 某 一 大 数据 应 用 BD.APP= {Name, Type, Function, PmcR,， 
Load, Qos}， 将 其 按 过 程 函数 中 粒度 算 粒 划分 为 m 个 计算 子 任 
务 , 记 为 task ={ 有 ,fp, 记 …, fn ,每 个 f(sism 为 可 完全 独立 


eu 804.02400v1 


chinaXiv 


录用 稿 


执行 的 代码 片段 ， 由 单个 或 多 个 基本 算 粒 构成 ， 
顺序 执行 或 并 发 执行 。 同 时 


BD.MA = (让 六 太太， 其 中 每 个 方 
m, 、 互 连结 构 c. 三 元 组 构成 ， 记 为 ”={pw1my,c.},(1< jn)， 
且 p. e{CPU,GPU,CELL,DSP, FPGA,RMS,ASIC.,... 
m, Ee {SRAM ,DRAM , NVRAM ,SCM, SSD,SATA,... 
c. e {LC,R}， 元素 工人 代表 线 直 连 ， 
接 。 这 样 ， 将 性 能 各 异 的 处 


速 网 络 连 成 并 行 环境 ， 充 分 利 ) 
协同 完成 一 个 大 数据 应 用 任务 ， 使 得 系统 能 效 最 高 ， 如 图 


不 。 


i 注 回 凶 洋 汗 


ET 
和 


和 


“ee 


~ 


i 


SB 


图 3 大 数据 任务 和 体系 结构 
那么 ，m 个 计算 子 任务 分 配 到 


态 计算 系统 ， 有 多 种 分 配方 案 。 


各 不 相同 ， 甚 至 差距 很 大 。 
计算 任务 模式 和 体系 结构 相 


系 结构 匹配 矩阵 进行 描述 D， 


1<i<m,1< jz<n， 如 图 4 所 7 


处 理 器 上 的 相对 性 能 表现 。 


nn 


万 1P Pr 
f, |1P2 Py … 


fn Pm Pm?2 A 


图 4 计算 任务 和 体系 结构 匹 
进一步 ， 针 对 大 数据 计算 休 
计算 、 内 存 迭 代 计 算 、 流 式 数 据 处 玫 
从 各 个 角度 对 P; 进行 综合 评 
分 发 挥 拟 态 系 统 的 整体 执行 效率 。 为 此 ， 可 以 结合 先 验 知 i 
通过 执行 速度 、 功 耗 、 延 迟 和 存储 IO 等 方 
并 从 中 选取 合适 的 体系 结构 。 

假设 用 工作 负载 不 ， 表 示 求 解 计 算 任务 task 的 工作 量 (与 
输入 操作 数 相 关 )， 记 EFCMP) 
系统 的 整体 能 效 。 显 然 ， 能 效 比 越 高 ， 系 统 的 表现 越 好 。 对 于 
perf (w) 


每 个 计算 子 任务 fi 的 工作 量 


区 


= EER(W)， 表 示 订 


量 wi， 有 EER(W) = 一 一 一 一 一 


， 对 于 拟态 计算 元 结构 资源 集合 
计算 资源 Pr、 存储 资源 源 


， 为 路 
器 、 存 储 设备 、 互 连结 构 通过 
任务 和 结构 的 异 构 性 


: 理 器 组 成 的 拟 
， 系 统 性 能 也 
以 态 计算 系统 中 ， 需 要 将 
这 里 ， 通 过 计算 任务 和 体 
记 MP=(py)wn ， 
上 入 于 任务 小 在 元 吉 构 


E 务 模式 的 多 样 性 ， 例 如 分 布 式 
EE、 实 时 数据 查询 等 
而 完成 系统 的 深度 融合 


押 来 对 Py 进行 讨 


power(w,) 


表示 功 耗 。 男 外 ， 如 果子 任务 和 (i jj) 需要 通信 ， 且 都 在 


m 


W = >》w, ,其 中 perf 表示 性 能 , 包括 速度 、 延 迟 、1/0 等 ; power 


同一 处 理 器 上 运行 ， 则 通信 代价 0; 否则 需要 在 能 效 比 中 额 
计算 通信 代价 EER(comm)。 这 样 ， 通 过 评估 每 个 子 任务 Ee 


里 器 的 能 效 表 现 p; 和 通信 代价 ,进而 得 到 整体 EF(MP) 。 然 


后 采用 模拟 退火 算法 , 设计 约束 条 件 BER( 丰 最 高 , 从 MP 中 遍 
历 当前 大 数据 应 用 的 结构 BD.MA' ， 并 选取 最 匹配 的 体系 结构 
BD.O4。 具 体 描述 算法 如 下 算法 1 所 示 ， 其 中 7 为 初始 温度 ， 
Toma 为 终止 低温 ， At 为 降温 系数 ，EER(Jww 为 最 优 能 效 比 。 


算法 1. 大 数据 体系 结构 的 匹配 优化 


Input: BD.4PP= {Name, Type, Function, PmcR, Load, Qos}// 大 数据 应 用 


Output: BD.O4 = {0q,04,,003,…,Oam} /目标 元 结构 集合 
1. initial task ={f, 户 ,; 户 ;…, 了/,} /初始 化 子 任务 集合 
2. initial BD.MA ={,,…, 克 } /初始 化 可 用 元 结 
3. 由 task 和 BD.M4 建立 匹配 矩阵 MP = (Py) ww 

4. W =0// 初 始 化 工作 负载 
5. for i= 1 to m do// 评 估 每 个 子 任务 fi 在 处 理 器 ;上 的 表现 py 
6. 的 输入 操作 数 ， 计 算 工 作 量 wi 

7.， W=W+w/1/ 累 加 子 任务 的 工作 负载 


集合 


集 


Wy 


8. forj=1tondo 
9， 评估 工作 量 wi 在 广 上 的 能 效 表现 Dy 9 有 
perf (Ww) 


power(w) 


EER(w,) = 


10. end for 


11. end for 


12. while (了 > Zain ) do// 采 用 拟 退 火 算法 ， 找 到 最 优 能 效 比 及 对 应 的 结 


min 


构 


13. 模拟 退火 算法 ， 从 MP 每 行 中 随机 选取 一 个 处 理 器 7; ， 有 
BD.MA'= {i, 记 , 记 ，…,,} ， 构 成 完整 的 应 

14. ”EER(W) = EER(BD.MA') // 计 算 当 前 结构 对 应 的 整体 能 效 比 

15. 计算 元 结构 互 连 通信 代价 Comm(7,,) ， 如果 二 地， 则 通信 代 
价 为 0， 否 则 EER(W)+ = EER(comm(r.,1)) 

16.， 这 (EER,,,(W) < EER(W) ) do// 最 优 能 效 比 小 于 当前 结构 的 能 


效 比 


17. ”BD.0A = Opt(BD.MA') /更 新 目标 元 结构 集合 
18. EER,,,(W) = EER(W) // 更 新 最 优 能 效 比 


opt 


19. endif 
20. 工 =TxAt /降温 


21. end while 


估 当 前 拟态 


当 算 法 1 结束 时 , 有 EZUUMP) = EPRw(W) 表现 最 优 。 显然， 
对 于 给 定 的 应 用 ， 在 能 效 最 优 的 约束 条 件 下 ， 建 立 合适 的 拟态 
混合 体系 结构 ， 可 完成 应 用 的 高 效 实现 。 
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2.4 大 数据 体系 结构 能 效 的 动态 优化 
在 大 数据 应 用 中 存在 着 大 量 的 数据 存 取 ， 处 理 器 需要 频繁 
地 访问 内 存 ， 导 致 在 程序 执行 的 过 程 中 存在 着 高 频率 的 计算 和 
存储 的 相位 切换 (51。 而 当前 处 理 器 的 架构 都 是 面向 计算 设计 的 ， 
与 大 数据 应 用 需求 不 匹配 ， 资 源 利 用 率 低 。 据 调查 显示 ， 处 理 


行 度 、 容 错 性 、 可 靠 性 ， 降 


RAID 磁盘 阵列 的 改进 等 ， 进 一 步 优化 大 数据 
3 ”实验 结果 与 分 析 


氏 数据 密集 型 应 用 的 网 络 传输 ， 对 


系统 的 能 


本 文 实验 , 通过 CPU、GPU 和 FPGA 搭建 拟态 异 构 计 算 平 


器 加 上 内 存 的 功 耗 就 占 到 整个 数据 中 心 功 耗 的 30% 以 上 07。 台 , 并 由 万 兆 网 络 互 连 , 三 种 计算 部 件 的 信息 如 表 1 所 示 , CPU 
动态 电压 /频率 调节 DVFSL8 (dynamic voltage/ frequency 操作 系统 为 Linux，FPGA 编程 软件 为 Vavido 2015.4。 其 中 ， 
scaling) 是 一 种 广泛 使 用 的 动态 功 耗 优化 技术 , 它 通 过 在 一 定 范 。 FPGA 为 可 重 构 器 件 ,集成 有 万 兆 网 络 接口 .PCIE 接口 和 DDR3 
所 内 降低 处 理 器 的 电压 /频率 ， 以 减少 其 能 量 的 消耗 。 因 此 ,可 内 存 , 可 直接 通过 万 兆 网 络 或 插 在 主机 的 PICE 插 槽 中 , 与 CPU 
以 采用 电压 动态 调节 技术 ， 划 分 出 不 同 的 电压 频率 区 域 ， 实 现 。 通信 。CPU 和 FPGA 内 存 容量 均 为 24GB，GPU 显存 为 6GB， 
线程 的 细 粒 度 电压 控制 ， 从 而 进一步 降低 功 耗 。 可 满足 大 数据 的 存 取 需求 。 该 大 数据 平台 环境 可 根据 用 户 配 置 ， 
处 理 器 的 功 耗 分 为 静态 功 耗 和 动态 功 耗 ， 静 态 功 耗 主要 与 ” 选择 合适 的 计算 资源 建立 数据 连接 ， 以 异 构 多 核实 现 高 效能 计 
路 的 漏电 等 相关 ， 而 动态 功 耗 主 与 电压 、 节 点 电容 和 频率 等 算 。 
相关 。 所 以 提高 clock 频率 , 在 提高 处 理 器 性 能 的 同时 , 也 会 提 表 1 各 计算 部 件 配 置信 息 
高 处 理 器 的 动态 功 耗 。 处 理 器 的 动态 功 耗 有 下 式 计算 431; 计算 部 件 名 称 配置 信息 
Pan = 0CV pof CPU IBM X3650 M3 人 
2.66GHz， 内 存 ; 24GB 
其 中 :a 反映 电路 的 信号 翻转 率 ，Cz 是 电容 负载 ，Vpp 是 供电 电 Ne 核心 频率 ，1.15 GHz， 核 心 
压 , f 为 频率 。 rt M2075 数 ，448; 显存 : 6GB 
对 于 拟态 系统 ， 整 体 功 耗 为 fys = 人 ow Te (frrcs + Xilinx Virtex-6 。 ” 片 内 资源 SLICES: 85920; 


户 +Po)ay+Pi.， 其 中 Pprcs 表示 处 理 器 功 耗 ， Pr 表示 通信 轧 


LX550T 


内 存 : 


24GB 


耗 ，Pro 表示 存 取 功 耗 。 在 不 影响 程序 整体 执行 效率 的 情况 下 ， 


同时 ， 选 取 高 频 交 易 为 应 月 


对象， 高 频 交 易 


日 内 交易 


量 巨 


可 以 对 非 关键 任务 划分 电压 频率 区 域 ， 选 择 合适 的 时 机 ， 进 行 。 天， 对 市 场 数 据 的 响应 延 时 在 微 秒 级 ， 需 要 实时 解析 数据 包 内 
.E 压 频率 调节 。 而 对 于 关键 任务 ， 利 用 数据 布局 算法 ， 可 以 适 。 家 着 入 座 。 其 交易 协议 又 分 为 明文 数据 包 和 密 文 数据 包 ， 密 广 
当地 增加 缓存 ,降低 VO 频率 。 假设 已 知 初始 目标 元 结构 oa 的 。 数据 包 对 计算 能 力 要 求 更 为 苛刻 。 显然 , 常规 CPU 无 法 胜任 高 
状态 , 据 此 可 在 满足 其 他 模块 的 需求 下 ,优化 调整 oa 的 电压 频频 交易 的 处 理 需 求 。 实验 在 TCP/IP 协议 处 理 、 数 据 检索 和 密码 
率 和 结构 布局 ， 具体 流程 如 算法 2 所 示 。 算法 计算 这 三 个 方面 ， 分 别 对 比 了 各 处 理 部 件 在 网 络 实时 响 I 
算法 2. 优化 调整 oa 的 B 压 频率 和 结构 能 力 、 内 存 吞 吐 能 、 计算 能 力 及 能 效 比 的 优 劣势 ， 进 T 分 析 
高 频 交 易 各 环节 所 适合 的 处 理 结构 。 并 根据 初步 分 析 结果 ， 拱 


Input:t BD.0OA = {oa ,oa ,00，…,Oa /初始 元 结构 集合 


Output，BD.O4 = {oa ,oa ,0o03 ,0Oanm } // 优 化 调整 后 的 元 结构 


1. fori= 1 to m do// 对 每 个 元 结构 进行 调整 优化 

2. 这 (ow 上 运行 的 为 非 关键 任务 ) 

3， ”在 满足 时 间 的 约束 下 ， 动 态 调节 该 处 理 单元 的 频率 幅度 ， 降 低 
Pracs 的 功 耗 ， 得 到 优化 后 的 元 结构 04;" 

4. else (ow 上 运行 的 为 关键 任务 ) 

5. 如 果 oar 和 ow 或 ou 和 oarl 需要 通信 ， 在 满足 oor 和 oarl 的 
IO 需求 的 情况 下 ， 优 化 oa; 的 存储 、 互 连结 构 等 ， 降 低 Pr 和 Pio 的 功 耗 ， 


得 到 oa;， 
6. endif 
7. end for 
于 大 数据 采用 分 布 式 计算 ,各 个 处 理 单元 相对 比较 独立 ， 


天 


且 数 据 的 访问 存在 高 并 发 、 随 机 性 和 离散 性 。 因 此 ， 还 可 以 通 
其 他 数据 布局 算法 RI， 例如 ; 优化 大 规模 网 络 存 储 系统 的 并 


建 了 拟态 异 构 高 频 交 易 大 数据 平台 ， 


低 了 
3.1 


士 蛆 
结果 


系统 功 耗 ， 验 证 了 本 文 方法 的 有 效 性 。 
各 异 构 部 件 性 能 分 析 


在 万 兆 网 络 下 ，:1 
CPU 和 FPGA 作为 服务 端 进行 响应 , 其 
Offload Engine) IP 核 ， 


CPU 客 


三 


的 延迟 对 比如 表 2 所 示 〈 单 位 微 秒 )。 


最 多 支持 128 个 连接 ， 客 


优化 了 系统 整体 性 能 


， 降 


户 端 发 送 大 量 TCP/IP 请 求 包 ， 
中 FPGA 集成 TOECTCP 
户 端 收 到 响应 


表 2 CPU 和 FPGA 网 络 响应 延迟 对 比 
102 103 104 105 
计算 部 件 
CPU 405 552 700 758 1002 
FPGA 341 356 365 562 846 
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9000 
= 和 一 CPU 

8000 -| 一 米 一 FPGA 
7000 
6000 

n 

上 so000 

还 

至 

副 4000 

总 
3000 
2000 
1000 


记 二 120 
连接 数 

图 5 多 连接 下 ，CPU 和 FPGA 处 理 大 量 数据 包 时 间 对 比 

情况 下 ， 以 10 万 200 字 节 长 度 的 数据 包 为 一 


增加 ，CPU 和 FPGA 处 理 时 间 的 变化 ， 如 图 


1 
| 30 


从 表 2 和 图 方面 ,FP 
明显 低 于 CPU。 这 主要 由 于 FPGA 减少 了 
慨 的 数据 拷贝 ， 降 低 了 协议 复杂 度 ， 加 快 了 网 络 传输 速度 。 


然 ， 使 用 FPGA 作为 网 卡 ， 在 数据 采集 完 后 ， 可 有 效 降 


5 中 可 以 看 出 ,在 TCP/IP 协议 处 理 


组 ， 


5 所 


GA 


千 输 层 与 网 络 


or 
TD 
频 交 易 


传输 时 延 ， 为 大 数据 的 高 速 处 理 、 高 和 物 联网 提供 
件 支 持 。 
在 数据 
内 存 ， 
并 传输 到 内 存 中 ， 然 后 使 用 多 模块 
里 速率 及 功 耗 ， 如 表 3 所 示 。 

表 3 CPU 和 FPGA 大 文件 搜索 处 理 能 力 对 比 


从 硬盘 读 取 大 文件 


面 ，CPU 通过 


种 索 方 


并 加 载 到 
查找 其 中 的 关键 字 。 FPGA 直接 从 万 兆 网 络 获取 大 文件 ， 
行 查找 关键 字 。 两 者 的 大 


8G 大 小 的 文件 64G 大 小 的 文件 


(MB/s) 


功 耗 
(W) 


功 耗 
时 间 (s) 
(W) 


时 间 (s) 
(MB/s) 


CPU 159.78 S127 78 970.76 67.51 81 


FPGA 36.44 224.8 56 194.16 337.54 37 


从 表 3 中 可 


以 看 出 ，FPGA 在 内 存 吞 吐 量 及 查询 搜索 上 也 


有 明显 优势 。 这 主要 由 于 FPGA 省 去 了 操作 系统 的 调度 ， 并 以 


板 级 总 线 直 连 内 存 ， 
也 提高 了 数据 搜索 的 速 / 
检索 系统 ， 使 用 FPGA 可 有 效 提高 数据 吞吐 量 。 


提高 了 内 存 读 取 效 率 。 同 时 , 多 模块 并 行 ， 
度 。 可 见 ， 对 于 海量 结构 化 大 数据 存储 


在 密码 算法 计算 方面 ， 对 于 海量 数据 的 管理 ，Hash 
有 很 好 的 压缩 映射 和 等 价 索 引 功能 ， 有 效 的 降低 了 数据 
例如 对 文件 按 MD5 值 来 分 表 / 分 库 ， 数 据 的 查询 去 重 等 。 
对 比 了 CPU、GPU 和 FPGA 在 Hash 函数 MD5 下 的 计算 性 外 
表 4CPU、GPU 和 FPGA 的 MD5 计算 性 能 对 比 


函数 
规模 ? 


能 效 比 (个 


/s/W) 


计算 部 件 速度 (个 /s) 功 耗 (W) 


CPU 5045000 184 27418.5 


GPU 1872250000 289 6478373.7 

FPGA 1185500000 130 9119230.8 

显然 ， GPU 和 FPGA 的 计算 能 力 要 远 高 于 CPU， 且 GPU 
高 于 FPGA, 但 由 于 GPU 功 耗 较 高 ， 造 成 能 效 比 较 低 。 综 合 来 


看 ，FPGA 对 密码 算法 的 计算 
消 元 ， 及 大 数据 加 密 协 议 的 处 理 ， 


本 


较 好 的 表现 ， 适 用 于 大 数据 
保障 大 数据 的 安全 性 。 而 在 


不 考虑 功 耗 的 情况 下 ，GPU 对 大 数据 的 加 速 处 理 更 有 优势 。 


业 ? 


CPU 处 理 器 善于 通用 事务 处 理 、 管 理 


王 司 


度 ， 以 及 


与 调 


串 行 计算 。 GPU 由 了 


由 


于 并 行 计算 能 力 强 及 算法 实现 相对 FPGA 简 


单 特点 ， 


点 运算 算法 放 


低 ， 


型 算法 力 


算法 


善于 典型 的 复杂 算法 大 规模 
0 速 。FPGA 由 于 其 大 规模 
实现 相对 复杂 特点 ， 
I 速 ,所 以 ,通过 拟态 


并 行 运算 ， 以 及 高 精度 浮 
行 计算 能 力 强 ， 功 厅 

善于 数据 采集 、 密 码 加 解密 等 典 
计算 技术 ,将 CPU 用 于 事务 管理 ， 


[3 


融合 GPU 和 FPGA 加 速 技 术 ， 可 以 提高 整个 系统 对 大 数据 计 


算 的 效率 。 同 时 ， 各 计算 节点 配 以 大 容量 高 


密 自 


Fy 


现 数 所 


进行 信息 交互 传输 。 
昌 包 解析 和 3DES 加 解密 耗费 系统 资源 和 时 间 较 多 ， 属 于 


关键 任务 。 


构成 拟态 


类 过 滤 、 


系统 ， 使 | 
网 络 延 述 ， 


仿 和 纠 错 等 组 成 ， 
或 、S 盒 、 置 
可 将 这 两 个 关键 任务 放置 在 FPGA 


异 构 系 统 ， 使 用 FPGA 进行 TCP/IP 连接 、 数 据 包 分 


a wii 


FTD 协议 ， 
通过 对 划 


速 存储 ， 针 对 数据 


及 交互 瓶颈 。 


以 明文 和 3DES 加 密 数 据 包 
应 用 算 粒 特征 进行 深入 分 析 ， 


进一步 ， 数 


昌 包 解析 由 报 文 头 分 类 ， 内 容 解析 ， 


揪 等 操作 组 


期 望 可 多 路 并 行 ， 


内 容 解析 、 校 验 
据 入 库 ， 其 系统 结构 妇 
j tuned 系统 调 优 工具 ， 
达到 优化 系统 、 降 低 功 耗 的 目的 。 在 不 增加 CPU 系 
统 功 耗 的 前 提 下 ， 每 秒 交 易 处 理性 


[图 6 


而 3DES 加 解密 主要 有 异 
高 速 并 行 。 结 合 以 上 分 析 ， 


上 实现 。 以 通过 CPU+FPGA 


成 ,期 望 可 


3DES 加 解密 ，CPU 负责 数 
同时 CPU 端 运行 的 是 Linux 
动态 优化 CPU 频率 、 存 储 和 


和 纠 错 、 
所 示 。 


能 约 提升 6%。 


CPU 


PCIE ‘bua> 


FPGA 


Key_Spool 


区 2 名 全 


数据 包 解析 


分 区 1 


> TOE128 


KF 


3DES 加 解密 


28 


| 


DMA 


FPGA 数据 包 解 析 和 3DES 加 解密 采 


图 6 


在 满足 核心 模块 处 型 
优化 各 模块 布 


入 


密 钥 ， 使 用 
如 下 表 所 示 : 


需求 的 情况 下 ,使 用 
局 ， 缩 短路 径 延 迟 。 其 中 Key Spool 用 来 存储 
1 个 RAM 实现 ， 


CPU+FPGA 拟态 异 构 系 统 
流水 线 结构 实现 ， 
RAM 进行 分 块 存储 ， 


其 它 各 模块 说 明 及 资源 占用 情况 


录用 稿 


表 5 FPGA 各 模块 资源 占用 情况 


占用 资源 


功能 模块 说 明 频率 


(slices) 


CPU 与 FPGA 的 数据 
PCIE 250MHZ 6384 

通道 ， 由 系统 底层 驱动 

直接 内 存 存 取 ， 实 现 数 
DMA 250MHZ 2314 
据 的 高 速 传输 


TCP/P 协议 处 理 引 


TOE128 擎 ， 最 多 支持 128 个 连 ”156.25MHZ 4544 


接 
按 报 文 头 分 类 、 提 取 内 
数据 包 解 析 156.25MHZ 1145 
容 ， 并 完成 校 验 和 比 对 
48 级 全 流水 结构 的 
3DES 156.25MHZ 2530 


3DES 加 解密 算法 

该 拟态 异 构 系 统 ， 在 网 络 负载 较 低 及 明文 的 情况 下 ， 关 闭 
FPGA 部 分 模块 ,直接 由 TOE128 将 数据 包 经 PCIE 传输 给 CPU， 
以 降低 系统 功 耗 。 经 测试 分 析 , 约 可 降低 FPGA 总 功 耗 的 3%。 
在 网 络 负载 较 高 的 情况 下 ， 启 动 FPGA 数据 包 解析 和 3DES 加 
解密 模块 ， 有 效 降低 CPU 负载 , 使 其 有 更 多 的 资源 处 理 数 据 入 
库 ， 提 高 系统 整体 性 能 。 单 独 使 用 CPU 和 CPU+FGPA 的 结果 
对 比 ， 如 下 表 所 示 。 

表 6 CPU 和 CPU+FPGA 商品 交易 性 能 对 比 


交易 量 〈 笔 功 耗 能 效 比 ( 笔 
计算 部 件 
/s) (W) /s/W) 
CPU 11710 114 102.7 
CPU+FPGA 32895 86 382.5 


显然 , CPU+FPGA 组 成 的 拟态 异 构 系 统 能 效 比 更 高 。 由 于 
将 数据 包 传 输 、 解 析 及 3DES 加 解密 等 关键 任务 移植 到 了 FPGA 
上 ， 在 减少 数据 包 响 应 时 延 的 基础 上 ， 利 用 FPGA 的 并 行 性 和 
可 重 构 性 , 提高 了 处 理 能 力 。 同时, 降低 了 CPU 利用 率 , 从 90% 
左右 降 至 30% 左 右 ， 从 而 使 CPU 拥有 更 多 的 空闲 资源 去 处 理 
数据 库 ， 提 高 了 每 秒 交 易 量 。 其 次 ，FPGA 属于 低 功 耗 器 件 
而 CPU 随 着 利用 率 的 下 降 ， 其 功 耗 也 有 明显 降低 。 最 后 ，CPU 
和 FPGA 二 者 各 司 其 职 ， 协 同 工 作 ， 并 根据 数据 包 是 否 加 密 ， 
变换 通路 ， 进 一 步 提 高 了 整个 系统 的 能 效 比 ， 在 性 能 和 功 耗 之 
间 取 得 了 平衡 。 


Tt 


4 ”结束 语 


本 文 提 出 的 基于 拟态 计算 的 大 数据 高 效能 平台 设计 方法 ， 
通过 分 析 大 数据 应 用 的 算 粒 特征 ， 建 立 计 算 任 务 与 体系 结构 匹 
配 和 矩阵 ， 在 应 用 需求 与 计算 资源 间 决 策 出 最 优 的 匹配 ， 重 构 出 
高 效 的 结构 ， 并 以 DVFS 技术 降低 非 关 键 任务 的 功 耗 ， 以 数据 
布局 优化 关键 任务 的 功 耗 ， 提 高 系统 能 效 比 。 实 验 结果 表明 该 
设计 方法 ， 突 破 了 一 般 计算 系统 性 能 、 效 能 和 灵活 性 不 可 兼顾 
的 瓶颈 ， 在 充分 挖掘 计算 节点 处 理 能 力 的 同时 ， 降 低 了 系统 功 
耗 ， 使 整体 能 效 比 达到 最 优 。 


但 是 ， 对 基于 拟态 计算 的 大 数据 高 效能 平台 的 研究 仍 处 于 


初级 阶段 ， 未 来 仍 有 许多 工作 需要 进一步 研究 和 解决 ， 例 如 : 
如 何 提炼 多 种 不 同 大 数据 应 用 的 算 粒 共性 特征 ， 如 何 实现 拟态 
系统 各 异 构 部 件 间 动态 调度 协作 ， 及 如 何 高 效 重 构 映 射 生成 各 
种 大 数据 算法 ， 即 构建 超 混 合 可 重 构 计算 阵列 HRCA(Hybrid 


Reconfigurable Computing Array)， 进 而 
满 大 数据 计算 的 灵活 性 。 


E 立 可 变 的 体系 结构 ， 


re 
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